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摘要 :数字 资源 长 期 保存 中 ， 保 存 元 数据 是 支持 数字 资源 长 期 可 生存 能 力 、 可 呈现 能 力 、 可 理解 能 力 、 真 实 
性 、 一 致 性 的 重要 信息 。 为 了 全 面 了 解 保 存 元 数据 的 最 新 发 展 ， 为 国内 从 事 长 期 保存 的 机 构 制 定 长 期 保存 
元 数据 的 实施 策略 、 建 设 方案 提供 参考 ， 笔 者 综合 分 析 了 长 期 保存 领域 核心 理论 标准 、 重 要 会 议和 重要 项 
目的 研究 进展 ， 总 结 归纳 了 保存 元 数据 在 权利 元 数据 ， 重 要 属性 元 数据 ， 特 殊 类 型 数字 资源 及 学 科 化 特色 
的 保存 元 数据 、 保 存 元 数据 的 语义 化 、 起 源 元 数据 等 方面 的 重要 发 展 趋势 。 
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ABSTRACT: Preservation Metadata is a kind of important information to support the viability, renderability , 
understandability, authenticity and identity of digital resources.To overview the state-of-art of preservation 
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1 保存 元 数据 的 概述 


保存 元 数据 一 直 是 数字 资源 长 期 保存 领域 长 期 关注 的 重点 与 热点 问题 , 作为 支持 数字 资 
源 长 期 保存 过 程 的 信息 止 ， 它 是 支持 数字 资源 在 长 期 保存 过 程 中 保有 长 期 可 生存 能 力 、 长 期 
可 呈现 能 力 以 及 长 期 可 理解 能 力 等 的 必要 信息 。 因 为 保存 元 数据 的 存在 ,数字 对 象 的 自我 记 
录 成 为 可 能 ， 即 便 是 所 有 权 、 保 管 、 技 术 、 法 律 限制 、 用 户 全 体 发 生 了 变化 ， 也 可 以 确保 数 
字 对 象 的 长 期 保存 和 访 i 

经 过 数 十 年 的 研究 ,保存 元 数据 目前 已 经 经 历 了 概念 发 展 、 理 论 发 展 、 实 践 论证 三 个 阶 
Bt, 国外 已 经 形成 了 不 少 成 型 的 保存 元 数据 体系 、 保 存 元 数据 使 用 方法 、 保 存 元 数据 相应 的 
工具 等 成 果 ， 国 内 虽然 以 应 用 为 主 ， 但 也 陆续 形成 了 一 些 标准 规范 应 用 指南 叫 。 

随 着 保存 环境 的 不 断 变化 ， 保 存 资 源 类 型 的 不 断 丰 富 ， 保 存 要 求 的 不 断 调整 ， 保 存 元 数 
据 也 不 断 发 生 着 变化 ， 本 文 希望 从 探索 保存 元 数据 的 发 展 入 手 ， 结 合 当 前 保存 元 数据 理论 、 
实践 研究 的 进展 , 分 析 保 存 元 数据 的 发 展 趋势 ， 以 便 为 长 期 保存 元 数据 的 实施 策略 、 建 设 方 
案 提 供 参考 。 


2 保存 元 数据 的 发 展 


Zl 


Hj 
o 


长 期 保存 领域 对 保存 元 数据 的 研究 兴起 于 20 世 纪 90 年 代 。 随 着 长 期 保存 活动 的 不 断 开 
展 ,研究 人 员 意 识 到 要 实现 数字 资源 在 长 期 保存 过 程 中 保有 长 期 的 可 生存 能 力 、 可 呈现 能 力 、 
可 理解 能 力 、 真 实 性 、 一 致 性 等 特征 , 需要 记录 很 多 有 关 资 源 本 身 、 资源 的 硬件 和 软件 环境 、 
变动 历史 等 相关 信息 。 基 于 此 ， 他 们 开始 探索 针对 保存 的 元 数据 集合 。 


* 本 文系 国家 社会 科学 基金 项 目 “ 数 字 资源 长 期 保存 技术 的 研究 与 实践 ”《〈 批 准 号 : 09FTQ005) 的 研 
究 成 果 之 一 。 
通讯 作者 : 刘建华 ，Email: liujh@mail.las.ac.cn 
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了 “Preservation Metadata”( 保 存 元 数据 ) 的 


概念 。 同 年 ，Research Library Group(fi 
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简称 RLG) 针 对 数字 图 像 保存 探索 了 
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间 数 据 系 统 咨询 委员 会 ，CCSDS) 公 布 了 Reference Model for an Open Archival Information 
System( 开 放 存 档 信息 系统 参考 模型 ， OAIS), 为 各 类 长 期 保存 活动 提供 了 参考 模型 和 基本 概 


念 框架 。 


OAIS 制 定 的 信息 模型 ， 提 出 一 个 数字 保存 系统 中 的 信息 


对 象 由 数据 对 象 本 身 和 它 


的 呈现 信息 组 成 , 数据 对 象 由 一 个 或 多 个 比特 序列 组 成 , 而 呈现 信息 将 这 些 比 特 序列 转换 成 


为 更 有 意义 的 信息 。 呈现 信息 又 可 以 分 为 结构 呈现 信息 和 
数据 对 象 的 组 成 结构 ,而 后 者 表现 数据 对 象 的 语 
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语义 呈现 信息 两 种 , 其 中 前 者 指出 
SUE Mo 某 一 呈现 信息 可 以 引用 已 经 定义 好 


的 呈现 信息 。 通常 情况 下 ,为 了 让 被 保存 的 某 一 
j 关 系 的 呈现 信息 组 成 呈现 网 络 来 进行 表述 .根据 信息 对 象 内 容 和 功能 
数字 保存 系统 中 信息 对 象 分 为 内 容 信息 对 象 、 保 存 描述 信息 对 象 、 打 包 


象 需要 一 系列 具有 
的 不 同 ，OAIS 又 将 
言 息 对 象 和 描述 信息 对 象 4 种 
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中 明确 


CURL Exemplars in Digital ARchiveS(CEDARS) 


信息 对 象 能 够 被 “独立 理解 ”， 这 一 信息 对 


了 描述 信息 对 象 包括 指引 信息 、 环 境 信息 、 


来 源 信息 、 稳固 性 信息 、 访 问 权 限 信息 (2009 年 新 版 的 OAIS 中 才 增 加 了 访问 权限 信息 )。 英国 
4] 项目 在 充分 吸收 OAIS 参 考 模型 和 其 它 领域 
的 元 数据 研究 成 果 基 础 上 ， 考 虑 了 多 种 数字 格式 ， 开 发 出 其 对 应 的 保存 元 数据 框架 。 此 外 ， 


还 有 澳大利亚 国家 

段 提 出 了 针对 保存 需求 的 元 数据 框架 。OAIS、 

着 保存 元 数据 从 概念 到 理论 标准 的 跨越 。 
2000 年 ，Online Computer Library Center( 
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同 发 起 了 一 个 对 数字 保存 元 数据 的 基础 架构 进行 研究 的 行动 计划 四， 他 们 继续 沿用 
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Preservation Metadata 的 说 法 ， 开 发 了 一 个 广泛 适 ) 
于 实践 操作 的 数据 字典 。2005 年 PREMIS1.0 外 正式 发 布 ， 并 在 随后 的 10 年 中 先后 


布 了 可 应 | 


的 、 综 合 性 元 数据 框架 ， 并 在 此 基础 上 发 


发 布 了 PREMIS2.0、PREMIS2.1、PREMIS2.200 和 PREMIS2.3， 目 前 PREMIS3.0 正 在 筹备 中 ， 


尚未 正式 发 布 。PREMIS 的 正式 发 布 使 保存 元 数据 实现 了 从 理论 标 # 
PREMIS 之 后 ， 针 对 保存 元 数据 的 研究 越 来 越 贴近 实际 应 用 


(等 方面 都 取得 了 不 少 成 果 。 
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保存 元 数据 框架 方 


余 国 外 的 研究 成 果 外 ,国内 比较 有 代表 性 的 主要 是 
用 做 出 了 一 些 探索 。 清华 大 学 的 程 变 爱 等 人 在 “ 
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国家 


保存 规范 ”项 目 支 持 下 ， 发 布 了 《国家 数字 
指南 基于 


图 书馆 长 期 保存 元 数据 标 ; 
规范 和 PREMIS 数 据 字 典 ， 列 出 了 一 些 必 备 语义 单元 ， 需 要 保存 系统 开发 


Jara) 0, 
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住 规范 应 用 


命名 域 、 受 控 词 表 等 内 容 ， 并 介绍 了 一 些 可 | 


j 于 自动 提取 元 数据 的 工 
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及 几 个 实用 


具体 的 实施 提供 了 很 好 的 指导 建议 。 
3 保存 元 数据 的 发 展 趋势 及 实施 建议 


伴随 着 数字 保存 理论 研究 和 实践 活动 的 不 断 深入 , 考虑 到 实际 使 ) 


的 便利 性 、 合 作 保 存 


及 分 布 式 保 存 环境 下 明晰 的 权力 信息 需求 、 保 存 内 容 多 元 化 的 需求 、 多 重 保存 策略 的 需求 、 


动态 保存 的 需要 等 因 


素 , 不 少 从 事 长 期 保存 研究 的 机 构 、 项 目 也 针对 保存 元 数据 从 理论 、 实 
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等 方面 开拓 了 新 的 发 展 。 综 合 分 析 长 期 保存 
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、 重 要 会 议和 重要 项 目的 研究 进 
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者 认为 ， 保 存 元 数据 在 权利 元 数据 ， 重 要 
色 的 保存 元 数据 、 保 存 元 数据 的 语义 化 、 起 源 元 数据 等 方 
的 内 容 给 出 了 一 些 实施 的 建议 。 下 文 将 从 上 述 几 个 方 国 


届 性 元 数据 ， 特 殊 类 型 数字 资源 及 学 科 化 特 
条 有 比较 明显 的 发 展 ， 并 结合 分 析 
进行 阅 述 。 
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3.1 权利 信息 日 趋 受 到 重视 


在 分 布 式 保存 、 合 作 保 存 逐 步 成 为 长 期 保存 主流 的 今天 , 版 权 专 有 权 可 能 会 限制 甚至 完 
全 阻碍 通过 复制 和 传播 来 保存 作品 , 同时 , 在 保存 后 的 一 些 操 作 中 也 可 能 需要 越 来 越 多 的 权 
利信 息 。 因 此 ， 权 利 元 数据 成 为 保存 元 数据 体系 中 一 大 重点 。 
2009 年 出 版 的 OAIS 在 其 原 有 的 Preservation Description Information (保存 描述 信息 , PDI) 
下 明确 区 分 出 了 一 类 访问 权限 信息 ,该 信息 主要 用 于 确定 内 容 信息 相关 的 访问 约束 , 包括 法 
律 框 架 、 许 可 条 款 及 访问 控制 等 。 该 信息 中 包含 了 遵从 提交 协议 (Submission Agreement ) 
前 提 下 的 访问 和 分 发 条 件 , 同时 还 包含 了 应 用 权利 强制 措施 的 说 明 。 这 标志 着 权利 类 型 元 数 
据 作 为 保存 元 数据 的 一 个 重要 组 成 部 分 ， 有 了 明确 的 理论 基础 。2013 年 ,， Digital Preservation 
Coalition( 数 字 保 存 联盟 ，DPC) 中 心 出 版 的 《Preservation Metadata(2nd edition)》[111 明 确 将 保 
存 元 数据 划分 为 起 源 元 数据 、 权 利 元 数据 、 技 术 与 环境 说 明 元 数据 三 类 。 这 些 都 从 概念 和 理 
论 上 强调 了 权利 元 数据 对 保存 元 数据 的 重要 。 
从 保存 元 数据 实践 上 看 ，PREMISE -0 在 其 最 近 新 出 版 的 三 个 版 本 元 数据 字典 中 ， 有 关 
权利 元 数据 的 调整 和 变动 占据 了 绝对 主要 的 地 位 , 包括 扩展 权利 元 数据 语义 单元 , 将 原先 单 
一 的 “许可 声明 ”扩展 到 三 种 明确 形式 的 知识 产权 : 版 权 、 许 可 、 法 规 ， 还 为 无 法 归 类 到 这 
三 种 明确 形式 的 知识 产权 提供 了 一 个 可 扩展 的 语义 单元 。 同 时 ， 新 版 的 PREMIS 中 为 扩展 后 
的 权利 声明 容器 都 提供 了 通用 的 元 数据 和 各 自 专 有 的 元 数据 ， 如 标示 符 、 特 性 、 范 畴 、 授 予 
仓储 的 权利 特征 等 ， 极 大 地 丰富 了 权利 元 数据 的 定义 ， 此 外 ，PREMIS 还 进一步 丰富 化 定义 
了 权利 元 数据 与 其 它 实体 之 间 的 关系 等 。 牛 津 大 学 和 曼彻斯特 大 学 合作 完成 的 Personal 
Archives Accessible in Digital Media (Paradigm)[l12] 项 目 将 权利 信息 作为 长 期 保存 元 数据 的 一 
个 重要 组 成 部 分 , 重点 关注 其 中 的 知识 产权 元 数据 , 他们 认为 知识 产权 元 数据 对 保存 和 获取 
都 有 重要 的 意义 ,在 重点 考察 了 各 类 权利 元 数据 的 基础 上 ，Paradigm 确 定 了 在 个 人 档案 存储 
中 的 权力 保存 方案 。 由 Ex Libris 和 新 西 兰 国家 图 书馆 共同 研发 的 长 期 保存 方案 Rosettal13] 中 ， 
权利 管理 作为 核心 保存 元 数据 之 一 ， 一 方面 用 于 保存 权利 元 数据 , 另 一 方面 也 用 于 控制 对 保 
存 对 象 的 访问 。 欧盟 第 七 框架 资助 的 视听 资料 长 期 保存 项 目 PrestoPRIMEM 和 在 充分 调研 了 现 
有 的 MPEG-21、Open digital Rights language、PREMIS 等 权利 表达 语言 与 格式 ， 以 及 Media 
Streaming MAF、MPEG Extensible Middleware 等 权利 管理 系统 的 基础 上 ， 基 于 Media Value 
Chain Ontology(ISO/IEC 21000-19) 设 计 了 详细 的 权利 管理 元 数据 本 体 模型 ， 支 撑 视 听 资 源 的 
长 期 保存 05]。 

总 体 上 看 , 不 论 是 独立 的 权利 元 数据 方案 还 是 嵌入 保存 元 数据 体系 中 的 权利 元 数据 ， 目 
前 针对 权利 元 数据 的 定义 已 经 趋 于 成 熟 , 国内 保存 机 构 在 实施 保存 活动 时 至 少 要 记录 下 保存 
系统 对 其 所 保存 的 数字 对 象 可 采取 的 被 授权 的 保存 行为 , 至 于 更 多 的 面向 资源 服务 的 权利 描 
述 信息 ， 则 需要 参照 实际 的 需要 遂 选 合适 的 语义 单元 进行 记录 。 


3. 2 数字 资源 重要 属性 元 数据 越 来 越 具体 清晰 


在 保存 元 数据 中 ， 重 要 属性 (Significant Properties) 的 概念 是 数字 保存 元 数据 界 争论 的 焦 
点 内 容 之 一 ， 它 对 保存 仓储 的 保存 策略 选择 有 着 直接 的 影响 。 研 究 者 们 普遍 认为 重要 属性 并 
不 是 数字 对 象 固有 的 ， 而 是 随 着 时 间 的 流逝 ， 由 保存 活动 发 生 的 环境 所 诀 定 ， 必 须 维护 的 关 
于 数字 对 象 的 关键 特征 〈 如 外 观 、 观 感 、 知 识 内 容 等 ) 。 但 是 之 前 ，“ 重 要 属性 ”被 给 予 了 
各 式 各 样 的 定义 且 以 很 多 不 同 的 方式 被 使 用 ， 对 于 重要 属性 怎样 归 类 和 使 用 缺乏 一 致 的 认 
同 。2009 年 ，Cultural, Artistic and Scientific knowledge for Preservation, Access and Retrieval 

(CASPAR) 项 目 组 的 David Giarettal16] 在 iPres 2009 会 议 上 ， 在 讨论 OAIS 的 新 版 本 中 提出 的 定 
义 的 基础 上 ， 对 重要 属性 、 可 靠 性 、 出 处 、 表 现 信息 和 OAIS 进 行 了 探讨 ， 明 确 了 重要 属性 


c 


*. 


与 可 靠 性 、 出 处 、 表 现 信息 的 关系 ， 并 给 出 了 相应 的 应 用 示例 ， 为 重要 属性 的 使 用 提供 了 有 


力 的 理论 依据 。 2008 年 正式 出 版 的 PREMIS2.0 数 据 字 典 为 重要 属性 创建 了 结构 化 语义 单元 集 


fr, 通过 这 些 语义 单元 有 助 于 保存 对 象 重 要 属性 的 管理 , 同时 还 可 确保 这 些 属性 不 会 受到 保 
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抽象 。 


尽管 目前 为 止 , 还 尚未 有 一 个 长 期 保存 项 目 开发 出 针对 该 元 数据 的 词 表 , 但 是 已 经 有 


些 机 构 在 实践 中 开始 运用 此 元 数据 来 记录 保存 信息 。 如 英国 的 SHERPA 人 文 数据 服务 数字 保 


了 一 个 清晰 一 致 的 概念 5， 在 此 基 而 


了 有 关 重 要 属性 的 重要 参考 。 此 外 ， 
的 重要 属性 , 提出 了 一 个 逻辑 模型 ， 


活动 的 损害 而 长 久 存在 ,这 为 重要 属性 的 实施 提供 了 可 操作 的 元 数据 支持 。 为 了 深入 调查 
要 属性 的 完整 概念 ,确定 对 各 种 类 型 保存 对 象 重要 的 属性 , 并 评价 每 一 个 属性 对 对 象 未 来 
E 现 的 重要 性 ，Joint Information Systems Committee( 英 国联 合 信 息 系 统 委员 会 , JISC) 专 门 资 
Ji T Investigating the Significant Properties of Electronic Content Over Time(InSPECT)Jji HU", 
民 据 研究 目标 ，InSPECT 项 目 收集 整理 了 有 关 重 要 属性 的 各 种 版 本 定义 、 观 点 ， 分 析 并 发 展 
上 还 形成 了 一 个 完整 的 重要 属性 数据 字典 中 ， 清 晰 


也 定义 了 重要 属性 相关 的 语义 单元 。 该 项 目的 研究 成 果 为 JSC 资 助 的 相关 长 期 保存 项 目 提供 
还 有 Simone Sacchi20 等 人 针对 科学 数据 集 长 期 保存 中 
该 模型 提供 了 为 适当 的 实体 确定 和 分 配 重要 属性 的 必要 


存 项 目 针 对 电子 预 印 本 这 一 类 保存 资源 构造 重要 属性 元 数据 , 以 记录 电子 预 印 本 资源 中 的 一 


些 特 殊 属 性 ， 如 语义 内 容 《〈 文 本 或 


图 片 》、 文 档 布 局 等 ， 以 便于 日 后 对 资源 的 维护 中。 我 国 


相关 机 构 在 实施 长 期 保存 过 程 中 ， 也 需要 逐步 重视 该 类 元 数据 ， 参 照 OAIS、PREMIS、 


InSPECT 等 项 目 ， 从 资源 利用 的 角度 出 发 ,扩展 出 尽 可 能 完整 描述 对 象 属性 的 语义 单元 , 在 


存储 过 程 中 记录 相应 的 重要 属性 元 数据 
3.3 特殊 类 型 数字 资源 、 学 科 化 的 保存 元 数据 受到 越 来 越 多 的 关注 


随 着 长 期 保存 的 不 断 发 展 , 原 
更 多 类 型 资源 的 保存 上 ， 如 音频 /文件 、 
感 数据 等 ) 、 网 络 内 容 (网 页 、blog 等 ) 、 互 动 内 容 、 应 用 程序 和 进程 等 。 同 时 ， 原 先 主 要 
等 文化 机 构 对 传统 文化 资源 开展 的 长 期 保存 工作 也 逐步 扩展 
情况 下 ,单独 一 种 保存 元 数据 体系 无 法 满足 多 种 类 型 的 数字 资源 


集中 在 图 书馆 、 档 案 馆 、 博 物 
到 了 各 个 学 科 领 域 。 在 这 和 


的 保存 需求 。 因 
己 有 的 各 类 元 数据 和 领 


的 保存 元 数据 模型 。 
Ruth Duerr 等 人 PU 在 PREMIS ISO 1115、Content Standard for Digital Geospatial Metadata 
(CSDGM) 等 元 数据 体系 基础 上 , 设计 了 针对 地 球 科学 领域 科学 数据 的 长 期 保存 元 数据 模型 。 


Kia Ng 等 人 [33] 参考 并 重 


Wb. Tub 


o 


先 主 要 针对 数字 文本 资源 的 长 期 保存 工作 逐步 扩展 到 了 对 


互动 多 媒体 资源 、 科 学 数据 〈 如 地球 科学 的 卫星 遥 


YY 


f 究 者 结合 所 需要 保存 的 数字 资源 本 身 的 特点 和 学 科 特 色 需求 ， 利 
成 知识 结构 , 为 有 学 科 化 特色 的 或 特殊 类 型 的 数字 资源 设计 了 相应 


JOAIS. CIDOC Conceptual Reference Model (CIDOC-CRM) 和 


FRBR model, 提出 了 可 有 效 描述 互动 多 媒体 资源 的 CASPAR 本 体 元 数据 框架 。Giinter R. Fuhr 


等 人 9 针对 医疗 


1 构 与 临床 研究 数据 ， 利 用 领域 乌有 的 一 些 正式 本 体 来 定义 和 描述 数字 对 


象 的 保存 元 数据 。 由 欧盟 第 七 框架 资助 项 目 PrestoPRIME 项 目 04 主 要 关注 视听 资料 的 长 期 保 
存 ， 并 需要 解决 原生 数字 化 视频 资料 的 长 期 保存 问题 ， 为 了 实现 这 一 目标 ， 该 项 目 在 OAIS 、 
PREMIS 和 Rosetta 保 存 元 数据 基础 上 ， 扩 展 了 保存 元 数据 的 范围 ， 将 起 源 元 数据 、 技 术 元 数 


据 、 权 利 元 数据 人 
对 博客 这 一 类 的 入 


容 、 内 容 i 


FE 为 重要 组 成 部 分 纳入 
会 网 络 数据 ， 设 ; 


了 保存 元 数据 中 。 欧 盟 的 BlogForever 项 目 25] 集 中 针 


十 了 包括 博客 内 容 、 博 客 种 子 、 网 络 与 关联 数据 、 分 类 内 


看 义 信息 、 垃 圾 检测 信息 、 采 集 信息 、 外 部 插件 、 排 序 等 内 容 在 内 的 保存 元 数据 模 
型 ， 为 博客 资源 的 长 期 保存 、 管 理 和 使 用 提供 了 很 好 的 参考 意见 。 


随 着 


国内 保存 活 
其 它 类 型 扩展 ， 同时， 针对 特定 学 科 的 学 科 化 保存 也 必然 会 逐渐 增多 。 和 针对 此 ， 各 机 构 有 条 


动 的 逐步 开展 , SH 


『 以 数字 文本 资源 为 主 的 长 期 保存 工作 必然 会 逐步 向 


件 的 可 以 在 现 有 一 些 较为 成 熟 的 元 数据 体系 基础 上 , 重新 制定 对 应 的 完整 的 长 期 保存 元 数据 


模型 ， 但 更 多 机 构 可 以 充分 利用 


zal 


网 有 元 数据 体系 中 提供 的 扩展 机 制 ， 如 PREMIS 提 供 的 扩展 


语义 单元 机 制 , 在 相应 的 语义 组 建 容器 中 艇 入 外 部 定义 好 的 特殊 格式 的 元 数据 , 如 针对 数字 


AF JE 
数据 的 扩展 。 


图 像 的 NISO Z39.87 MIX scheama, 这 村 


3.4 保存 元 数据 的 语义 日 趋 丰 富 


随 着 语义 技术 的 发 展 , 保存 元 数据 也 越 来 越 重视 
元 数据 描述 相 比 ， 语义 技术 的 引入 可 促进 保存 元 数据 对 数字 资源 内 容 的 深 
空气 的 深度 ， 同 时 ， 语 义 技术 也 进 


步 提 高 了 保存 元 数据 在 


保存 元 数据 主要 是 通过 应 ) 


JOWLi& 


Tite oU URS CIE SEX MA BSE HERE ED 


£ 


Sa 


HE 


采 


年 6 月 发 布 的 OWL 语 言 的 本 体 ,提供 了 可 


包括 利 ) 


Memories27 在 保存 元 数据 之 间 建 立 RDF 三 元 组 ， 描 述 类 、 从 


成 基于 本 体 的 保存 结构 ， 实 现 音 


频 资 源 的 


EF 即 可 快速 地 实现 对 于 不 同类 型 、 


语义 技术 的 融合 与 应 ) 


个 方 


昌 于 数字 资源 的 组 织 等 。 


不 同学 科 的 元 


,与 传统 简单 的 
Ed. 提升 内 容 
| 粒度 和 交互 操作 方面 的 性 能 。 
用 实现 的 。 在 自身 的 发 展 中 ， 


jRDF 格 式 存储 和 管理 元 数据 ， 如 PREMIS 于 2013 
容 关 联 数据 支持 PREMIS 有 序 化 的 数据 词典 C26]。 
在 具体 的 实施 操作 中 ， 语 义 化 的 丰富 主要 体现 在 不 同 环 节 对 语义 化 技术 的 应 用 。 具 体 来 讲 ， 
jRDF 三 元 组 描述 保存 元 数据 记录 、 关 联 数据 月 


欧盟 资助 的 


长 期 保存 。 法 


国 SPAR 项 目 23] 利 ) 


Bk. BE AiBSKA, W 
METS 标 准 ， 在 


METS 与 RDF 三 元 组 之 间 建 立 联 系 ， 例 如 通过 <infor:bnf/spar/provenance# hasEvent> 对 应 来 源 


本 体 中 的 “hasEvent” 属 性 。 除 了 应 月 


RDF 三 元 组 外 ，SPAR 项 目 还 尝试 通过 关联 数据 技术 ， 


将 整个 数据 仓储 整合 成 一 个 关联 数据 。SCIence Data Infrastructure for Preservation-Earth 


Science( 欧 盟 FP7 框 架 计 划 资 助 的 地 球 数 据 保存 项 目 ， 
的 相关 技术 问题 进行 调查 和 分 析 ， 
Hif 


Multilingual Environmental Thesaurus(3Bi H 


完善 了 保存 元 数据 对 地 理 数 据 的 描述 和 保存 。Kia Ng“ AP? 132% EH 


SCIDIP-ES)P29 对 地 球 数据 保存 元 数据 
iM 为 “GeoNames” 本 体 、The General 
1 环境 叙 词 ， 


GEMET) 等 本 体 资源 的 应 用 ， 
了 现 有 的 相关 标 


准 模 型 ， 如 CIDOC-CRM 和 FRBR model， 提 出 了 CASPAR 的 本 体 元 数据 框架 ， 其 中 描述 了 互 


动 多 媒体 资源 各 天 
通过 这 一 框架 ,人 


MITESH 


这 一 研究 ， 他 们 认为 本 体 与 保存 元 数据 在 长 期 保存 应 | 


' 概 念 之 间 存 在 的 复杂 关系 ， 实 现 了 互动 多 媒体 资源 的 本 体 驱 动 保存 方法 。 


数字 对 象 之 间 关 系 的 自动 


FESTE 


X] 


完 数据 , 在 现 有 的 一 些 领 域 本 体 基 础 


有 效 地 描述 了 所 需要 保存 的 元 数据 之 间 的 关系 和 依赖 性 。 基 
中 的 结合 对 数字 仓储 系统 的 互 操 作 、 
处 。 Günter R. Fuhr 等 人 P4 针 对 医疗 机 构 与 临床 研 
上 提出 了 数字 对 象 的 保存 元 数据 体系 , 该 元 数据 体系 也 


于 


以 本 体形 式 表 达 ， 本 体 中 主要 描述 了 数据 对 象 的 基本 特征 (如 类 型 、 格 式 、 尺 寸 、 保 存 描述 


2. 自 A 
Fi y 


) 和 一 些 领 域 特 有 的 信息 ， 借 助 这 一 领域 本 体 可 以 实现 对 象 的 索引 和 元 数据 的 管理 ， 


从 而 解决 由 于 格式 过 时 、 


Heritage Access(SHAMAN) 语 境 模型 提供 了 一 个 | 
E 动 了 长 期 保存 中 语义 技术 的 应 用 。 


独立 基础 设施 B9， 


医学 术语 变动 等 为 医学 领域 | 


] 户 带 来 的 使 / 


问题 。 BR RAY Sustaining 


从 上 


述 已 有 的 研究 可 以 看 到 ， 


目前 在 


三 元 组 、 关 联 数据 和 本 体 框 架 三 


开展 相关 存储 工作 时 ,可 以 充分 借鉴 和 应 


式 来 描述 、 存 储 和 管理 元 数据 。 


3. 5 起 源 元 数据 日 渐 丰 富 和 完善 
起 源 元 数据 是 保存 元 数据 中 的 一 类 重要 元 数据 , 它 负责 记录 数字 对 象 创 建 、 保 存 过 程 中 


系列 动作 的 信息 及 相应 的 结果 ， 同 时 还 包括 一 些 验 说 


j 本 体 表 示 数 字 对 象 属性 和 他 们 之 间 关 联 的 


\ 体 实施 操作 中 语义 化 的 实现 主要 依靠 的 是 RDF 
' 技 术 ， 其 中 又 以 本 体 为 主 。 因 


此 , 我 


国 的 一 些 存储 机 构 在 


j 现 有 的 一 些 通 ) 


或 学 科 本 体 框架 , K) 


j 本 体 的 方 


的 信息 ， 此 类 元 数据 对 确 


保 保存 对 象 的 


真实 性 有 


要 的 意义 B1。 随 着 


数字 保存 实践 活动 和 语义 网 的 不 断 发 展 ， 起 源 元 数据 在 内 容 、 


表达 模型 方面 不 断 丰 富 和 完善 。 在 内 容 方 


建 之 后 的 所 有 变化 的 历史 记录 ， 包 括 迁移 、 标 ; 
是 不 可 变更 的 , 所 有 的 修改 操作 会 产生 的 一 个 新 的 对 象 记录 ， 该 新 对 象 与 其 来 源 对 象 之 间 奸 


有 些 保存 仓储 认为 数字 起 源 应 该 包括 自 对 象 创 
EE 化 和 其 他 的 一 些 操作 。 在 PREMIS 中 ， 对 和 象 


立 关 系 。 对 所 有 的 对 象 而 言 ， 数 字 起 源 相 关 的 元 数据 均 包括 对 象 的 创建 者 、 所 有 者 、 权 力 拥 
有 者 、 影 响 对 象 的 事件 或 过 程 操作 以 及 操作 的 时 间 等 。 这 些 元 数据 元 素 分 别 以 PREMIS 事 件 
实体 与 代理 者 实体 下 相应 的 语义 单元 表示 , 在 对 象 实体 中 也 提供 了 包括 对 象 特征 或 重要 属性 
的 扩展 元 素 〈 包 括 来 源 某 个 领域 的 特定 起 源 此 表 ) 。National Library of New Zealand( 新 西 兰 


的 原因 的 元 数据 。Ex Libris 的 Rosetta 明 确 ; 


之 一 ， 该 元 数据 | 


布 的 Open Provenance Model( 开 放 起 源 模型 


于 记录 数字 对 象 的 来 源 、 


国家 图 书馆 ， NLNZ) 定 义 的 起 源 元 数据 包括 了 对 过 程 的 描述 ， 这 些 元 素 据 类 似 于 PREMIS 中 
的 事件 ， 但 NLNZ 中 涉及 更 长 时 间 范 围 内 的 多 个 步骤 ， 同 时 NLNZ 中 还 提供 了 记录 过 程 实施 
各 起 源 元 数据 作为 其 保存 元 数据 方案 中 的 核心 元 素 


所 有 发 生 在 该 数字 对 象 上 的 变动 ， 即 系列 事件 、 
行为 以 及 相关 行为 者 的 记录 。METS 在 其 管理 元 数据 部 分 也 提供 了 名 为 digiProvMD 的 特定 元 
Ro 用 于 描述 任何 与 数字 对 象 相关 的 任何 保存 活动 。 在 起 源 元 数据 的 表达 模型 上 ，2007 年 发 


间 可 交互 的 起 源 信息 模型 ， 允 许 开发 人 员 创 建 并 共享 操作 该 模型 的 工 


度 定义 了 起 源 ， 文 持 对 多 种 事物 的 起 源 描述 ， 允 许多 级 描述 同时 存在 。 
Artifact、Process 和 Agent 三 个 核心 概念 以 及 六 下 
于 参考 。 其 它 还 有 如 Provenir OntologyB3]、 
提出 了 起 源 元 数据 的 表示 模型 。 
基于 这 种 发 展 趋 势 ， 在 实施 数字 资源 保存 过 程 中 ,尤其 是 针对 科学 数据 的 保存 中 ,保存 


\。OPM 从 技术 的 角 
该 模型 中 定义 了 

' 关 系 和 角色 ， 在 该 模型 中 ， 时 间 也 可 被 标注 

Provenance VocabularyB4 等 ， 也 从 不 同 的 角度 


，OPMD)B3 最 具 典 型 ,OPM 虽 在 定义 一 套 不 同系 统 


实施 机 构 要 充分 考虑 对 起 源 信 息 的 记录 。 在 目前 尚 无 统一 通用 的 模型 前 提 下 , 实施 中 可 以 从 


OPM、Provenir、Provenance 等 现 有 表达 模型 中 选择 一 个 作为 通 ) 


fit 
H On Es fei e di UR A 
4 结语 


j 模 型 的 基础 ， 
上 ,根据 本 机 构 保 存 策略 或 针对 保存 内 容 的 学 科 领 域 , 构造 个 性 化 的 起 源 模型 并 定义 适合 
粒度， 便于 记录 相应 的 起 源 信息 。 


然后 在 此 基 


作为 支持 数字 资源 长 期 保存 过 程 的 重要 信息 , 保存 元 数据 是 支持 数字 资源 在 长 期 保存 过 
程 中 保有 长 期 可 生存 能 力 、 长 期 可 呈现 能 力 以 及 长 期 可 理解 能 力 等 的 必要 信息 。 随 着 保存 环 


境 的 不 断 变化 ， 保 存 资源 类 型 的 不 断 丰 富 ， 保 存 要 求 的 不 断 调整 ， 保 存 元 数据 也 不 断 发 生 着 
变化 ， 本 文 结合 当前 保存 元 数据 理论 、 实 践 研究 的 进 
一 方面 可 以 全 面 了 解 保存 元 数据 的 最 新 发 展 , 另 一 方面 也 可 为 国内 相关 机 构 外 
数据 的 实施 策略 、 建 设 方案 提供 参考 , 支持 


存 元 数据 集合 。 
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